Convergence and Sample Complexity of Gradient Methods for the Model-Free Linear–Quadratic Regulator Problem
نویسندگان
چکیده
Model-free reinforcement learning attempts to find an optimal control action for unknown dynamical system by directly searching over the parameter space of controllers. The convergence behavior and statistical properties these approaches are often poorly understood because nonconvex nature underlying optimization problems lack exact gradient computation. In this article, we take a step toward demystifying performance efficiency such methods focusing on standard infinite-horizon linear–quadratic regulator problem continuous-time systems with state-space parameters. We establish exponential stability ordinary differential equation (ODE) that governs gradient-flow dynamics set stabilizing feedback gains show similar result holds descent method arises from forward Euler discretization corresponding ODE. also provide theoretical bounds rate sample complexity random search two-point estimates. prove required simulation time achieving $\epsilon$ -accuracy in model-free setup total number function evaluations both scale as notation="LaTeX">$\log \, (1/\epsilon)$ .
منابع مشابه
the effect of task complexity on lexical complexity and grammatical accuracy of efl learners’ argumentative writing
بر اساس فرضیه شناخت رابینسون (2001 و 2003 و 2005) و مدل ظرفیت توجه محدود اسکهان (1998)، این تحقیق تاثیر پیچیدگی تکلیف را بر پیچیدگی واژگان و صحت گرامری نوشتار مباحثه ای 60 نفر از دانشجویان زبان انگلیسی بررسی کرد. میزان پیچیدگی تکلیف از طریق فاکتورهای پراکندگی-منابع تعیین شد. همه ی شرکت کنندگان به صورت نیمه تصادفی به یکی از سه گروه: (1) گروه موضوع، (2) گروه موضوع + اندیشه و (3) گروه موضوع + اندی...
15 صفحه اولthe use of appropriate madm model for ranking the vendors of mci equipments using fuzzy approach
abstract nowadays, the science of decision making has been paid to more attention due to the complexity of the problems of suppliers selection. as known, one of the efficient tools in economic and human resources development is the extension of communication networks in developing countries. so, the proper selection of suppliers of tc equipments is of concern very much. in this study, a ...
15 صفحه اولthe innovation of a statistical model to estimate dependable rainfall (dr) and develop it for determination and classification of drought and wet years of iran
آب حاصل از بارش منبع تأمین نیازهای بی شمار جانداران به ویژه انسان است و هرگونه کاهش در کم و کیف آن مستقیماً حیات موجودات زنده را تحت تأثیر منفی قرار می دهد. نوسان سال به سال بارش از ویژگی های اساسی و بسیار مهم بارش های سالانه ایران محسوب می شود که آثار زیان بار آن در تمام عرصه های اقتصادی، اجتماعی و حتی سیاسی- امنیتی به نحوی منعکس می شود. چون میزان آب ناشی از بارش یکی از مولفه های اصلی برنامه ...
15 صفحه اولinvestigating the feasibility of a proposed model for geometric design of deployable arch structures
deployable scissor type structures are composed of the so-called scissor-like elements (sles), which are connected to each other at an intermediate point through a pivotal connection and allow them to be folded into a compact bundle for storage or transport. several sles are connected to each other in order to form units with regular polygonal plan views. the sides and radii of the polygons are...
the algorithm for solving the inverse numerical range problem
برد عددی ماتریس مربعی a را با w(a) نشان داده و به این صورت تعریف می کنیم w(a)={x8ax:x ?s1} ، که در آن s1 گوی واحد است. در سال 2009، راسل کاردن مساله برد عددی معکوس را به این صورت مطرح کرده است : برای نقطه z?w(a)، بردار x?s1 را به گونه ای می یابیم که z=x*ax، در این پایان نامه ، الگوریتمی برای حل مساله برد عددی معکوس ارانه می دهیم.
15 صفحه اولذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: IEEE Transactions on Automatic Control
سال: 2022
ISSN: ['0018-9286', '1558-2523', '2334-3303']
DOI: https://doi.org/10.1109/tac.2021.3087455